from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

# 允许用户动态控制模型的行为。具体来说，您可以在用户提示或系统消息中添加 /think 和 /no_think 来逐回合切换模型的思考模式。
response = client.chat.completions.create(
    model="/root/autodl-tmp/llm_models/MiniCPM4.1-8B",
    messages=[
        {"role": "user", "content": "中国的首都是？"},   # minicpm4.1只有软思考 /think /no_think
    ],
    extra_body={
        "add_special_tokens": True,
        "chat_template_kwargs": {"enable_thinking": True},  # 硬思考
    },
)


print(response)

